#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'libb@anchent.com'

import re

# result = re.match(<正则表达式>, <要匹配的字符串>)
result = re.match('python', 'ipython is best')
if not result:
    print("no")
else:
    print(result.group(), result.groupdict(), result.start())
# 1. 匹配单个字符
# 匹配任意1个字符（除了\n）
print(re.match('.', "C").group())
print(re.match('t.o', 'two').group())
# 匹配[ ]中列举的字符
print(re.match('[hH]', 'Hello python').group())
# print(re.match('[0123456789]Hello', '9Hello').group(), re.match('[0-9]Hello', '9Hello').group(), end=' ')
print('\n', re.match('[0-9a-zA-Z]', '0Aasddsa').group())
# 匹配数字，即0-9
print(re.match('\dHello', '9Hello').group())
print("*" * 200)
# 2. 匹配多个字符
# * 匹配前一个字符出现0次或者无限次，即可有可无
print(re.match("[a-z]*", "hehe").group())
print(re.match('[A-Z][a-z]*', 'MnnnM').group())
# + 匹配前一个字符出现1次或者无限次，即至少有1次
print(re.match('[a-zA-Z_]+', 'hh').group())
# ? 匹配前一个字符出现1次或者0次，即要么有1次，要么没有
print(re.match("[1-9]?[0-9]", "7").group(), re.match('[0-9]?\d', '999').group())
# {m} 匹配前一个字符出现m次
print(re.match("[a-zA-Z0-9_]{6}", "12a3g45678").group())
print(re.match("[a-zA-Z0-9_]{2,9}", "12a3g45678").group())
# 匹配出163的邮箱地址，且@符号之前有4到20位，例如hello@163.com
print(re.match('[0-9A-Za-z]{4,20}@163\.com', 'hello@163.com').group())  # 要匹配 '.'的时候要加转义字符\.
print(re.match('^[\w]{4,20}@163\.com$', 'hedasdsadasdllo@163.com').group())
print("*" * 200)
# 3. 匹配开头结尾

# 4. 匹配分组
# | 匹配左右任意一个表达式，类似于or
print(re.match("[1-9]?\d$|100", "100").group())
print(re.match("[1-9]?\d$|100", "99").group())

# (ab) 将括号中字符作为一个分组
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", 'test@qq.com').group())
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", 'test@163.com').group())
print(re.match("[\w]{4,20}@(163|126|qq)\.com$", 'test@126.com').group())
print(re.match("([\w]{4,20})@(163|126|qq)\.com$", 'test@126.com').group(1))
print(re.match("([\w]{4,20})@(163|126|qq)\.com$", 'test@126.com').group(2))

# \num 引用分组num匹配到的字符串
html1 = '<h1>sdasdas</h1>'
html2 = '<h1>sdasdas</h2>'
print(re.match('<(\w+)>.*</(\w+)>', html1).group())
print(re.match(r'<(\w*)>.*</\1>', html1).group())  # 原样输出
print(re.match('<(\w*)>.*</\\1>', html1).group())
html3 = '<body><h1>sdasdas</h1></body>'
print(re.match(r"<(\w*)><(\w*)>.*</\2></\1>", html3).group())
html4 = '<body><h1>sdasdas</h1></body>'
# (?P<name>)  分组起别名
# (?P=name)   引用别名为name分组匹配到的字符串
print(re.match(r"<(?P<p1>\w*)><(?P<p2>\w*)>.*</(?P=p2)></(?P=p1)>", html4).group())

# 5. re模块的高级用法
# compile
print(re.compile(r"\d+").match("31231").group())

# search
print(re.search(r"\d+", "阅读次数111").group())
print(re.search(r"\d{4}", 'Microsoft Windows Server 2012 R2 Datacenter').group())

# findall 统计个数，并将匹配到的对象以列表的形式返回
print(re.findall(r"\d+", "python=999, c=7899, Go=999"))
print([i.group() for i in re.finditer(r"\d+", "阅读次数111")])

# sub 将匹配到的数据进行替换
print(re.sub(r"\d+", "999", "python=996"))

# split 根据匹配进行切割字符串，并返回一个列表
print(re.split(r"\d", "a9a"))
# 6. 贪婪和非贪婪
